À medida que pesquisadores do Caltech e de outras instituições trabalham para desenvolver tecnologias de inteligência artificial para realizar pesquisas científicas cada vez mais críticas e com uso intensivo de dados...

Pesquisadores do Caltech navegam pelo cenário mutável e pelo futuro complexo da IA, traçando um curso para seu desenvolvimento e aplicação éticos.
À medida que pesquisadores do Caltech e de outras instituições trabalham para desenvolver tecnologias de inteligência artificial para realizar pesquisas científicas cada vez mais críticas e com uso intensivo de dados, eles e seus colegas também buscam orientar o desenvolvimento ético dessas tecnologias, trabalhando com líderes da indústria e do governo para avaliar como o crescente envolvimento da sociedade com a IA moldará o caminho a seguir.
Pietro Perona, Professor Allen E. Puckett de Engenharia Elétrica do Caltech, é um pioneiro em IA na área de visão computacional, um ramo do aprendizado de máquina em que engenheiros ajudam computadores a aprender a "ver" ou "saber o que está onde", como diz Perona, interpretando imagens e vídeos. Desde o início dos anos 2000, Perona e seu grupo têm avançado no estudo da categorização visual. Eles desenvolvem algoritmos que permitem que máquinas aprendam a reconhecer carros, rostos, peixes e muito mais com supervisão humana mínima. Para isso, precisam treinar os algoritmos com dados. Questões éticas surgem nos estágios iniciais desse processo, explica Perona.
“Temos que coletar conjuntos de dados muito grandes”, diz ele. “Essa etapa já é sensível. Você é o proprietário dos dados? Está pedindo permissão para usá-los? Se você pode baixar os dados da internet, é razoável que os use? Os dados contêm vieses que podem afetar o algoritmo?”
Por exemplo, se você treinar um computador para reconhecer pássaros, mas o conjunto de dados fornecido incluir apenas imagens de pássaros tiradas em dias claros de verão, você terá criado um sistema de IA que reconhece imagens de pássaros à luz do dia e tenderá a apresentar desempenho ruim à noite. Questões sobre viés tornam-se ainda mais importantes quando a IA é usada para tomar decisões sobre a vida das pessoas, como quando um algoritmo filtra currículos para uma lista de empregos ou quando juízes tomam decisões sobre liberdade condicional com base em um modelo de IA que prevê se alguém condenado por um crime tem probabilidade de cometer outro. "Uma pergunta central que fazemos é: o algoritmo foi desenvolvido e treinado para tratar todos os humanos com igualdade e respeito?", diz Perona. "Ou ele tomará decisões baseadas em estereótipos de um tipo ou outro que podem afetar a justiça em geral? Sabemos que os humanos podem ser bastante tendenciosos em seus julgamentos e decisões. Se fizermos as coisas corretamente, nossos algoritmos serão melhores do que nós."
Perona e Colin Camerer, professor Robert Kirby de Economia Comportamental do Caltech e presidente de liderança e diretor do Centro Tianqiao e Chrissy Chen de Neurociência Social e de Decisão, juntamente com ex-membros de seus respectivos grupos de pesquisa, Manuel Knott e Carina Hausladen, estabeleceram um novo método para medir o viés algorítmico em modelos de linguagem de visão, que podem analisar imagens e texto.
Perona afirma que ele e seus colaboradores estavam curiosos para saber se os modelos de linguagem visual fazem julgamentos sociais a partir de imagens de rostos e se tais julgamentos são influenciados pela idade, gênero e raça dos rostos. "Essa parece ser uma questão fácil de abordar", diz Perona. "Por exemplo, você pode mostrar ao computador fotos de jovens e fotos de idosos para ver se o computador classifica uma como mais amigável do que a outra. No entanto, há um porém: o viés pode estar nos dados e não no algoritmo."
Imagine um exemplo em que os dados utilizados são imagens de jovens coletadas de inscrições para faculdades de medicina e imagens de pessoas mais velhas que são políticas. Políticos tendem a sorrir em fotos oficiais, enquanto candidatos a faculdades de medicina escolhem fotos nas quais parecem mais sérios e profissionais. Perona afirma que esses dados seriam tendenciosos porque as expressões faciais se correlacionam com a idade. A percepção do algoritmo de que pessoas mais velhas são mais amigáveis pode levar os pesquisadores a acreditarem que ele é tendencioso contra pessoas mais jovens, embora a percepção de simpatia seja baseada na expressão facial e não tenha nada a ver com a idade. "Portanto, para avaliar vieses em algoritmos, é preciso desenvolver testes que não sejam tendenciosos", diz Perona.
A equipe do Caltech projetou um método experimental específico para evitar esses problemas. Em vez de testar algoritmos usando imagens de pessoas reais coletadas de fontes aleatórias, os pesquisadores usaram IA para gerar um conjunto de dados de imagens realistas de rostos humanos, sistematicamente variadas em termos de idade, gênero, raça, expressão facial, iluminação e pose. Eles também criaram um conjunto de dados de prompts de texto que descreviam a percepção social com base em descobertas de pesquisas psicológicas (por exemplo, "uma foto de uma pessoa amigável" e "uma foto de uma pessoa desonesta").
Os pesquisadores alimentaram essas imagens e prompts de texto em um dos modelos de linguagem de visão de código aberto mais populares, chamado CLIP, e analisaram os bastidores para ver como o modelo representava o texto e as imagens com números chamados embeddings. Eles então compararam o quão próximos os embeddings de imagens e textos estavam relacionados entre si, usando essa relação numérica como uma medida de como o modelo "percebia socialmente" esses diferentes rostos. A equipe também avaliou quantitativamente se a variação de quaisquer atributos faciais afetaria a percepção social do algoritmo. Os pesquisadores descobriram que o modelo CLIP de fato contém vieses. Notavelmente, imagens de mulheres negras estavam quase sempre nos extremos de diferentes métricas de percepção social. Por exemplo, mulheres negras carrancudas foram percebidas como as menos competentes em todas as identidades interseccionais, mas mulheres negras sorridentes foram percebidas como as mais competentes. Agora, engenheiros e pesquisadores de IA podem usar os conjuntos de dados e a metodologia do estudo do Caltech para testar exaustivamente seus próprios modelos de linguagem de visão para viés algorítmico, fornecendo uma referência para avaliar e aprimorar.
Perona acredita que o desenvolvimento de uma IA responsável deve ser uma prioridade. “Engenheiros podem fornecer números e estatísticas sobre nossos modelos de IA, mas cabe à sociedade, por meio da lei e de líderes eleitos, chegar a um consenso sobre o que é justo e ético em diferentes contextos”, diz Perona, que também ministra um curso sobre as fronteiras da tecnologia de IA generativa a cada primavera com Georgia Gkioxari, professora assistente de ciências da computação e matemática e engenharia elétrica do Caltech e bolsista William H. Hurt. “Temos que encontrar maneiras de regular a IA que não bloqueiem seus muitos usos benéficos e, ao mesmo tempo, minimizem possíveis riscos. Temos processos democráticos para elaborar regulamentação e políticas de IA. O desafio é que, hoje, poucos eleitores e formuladores de políticas entendem como a IA funciona. No Caltech, estamos formando futuros líderes; é por isso que nosso objetivo é ensinar IA a todos os alunos e, em todos os nossos cursos de IA, ensinamos os princípios da IA responsável.”
Yisong Yue, professor de ciências da computação e matemáticas no Caltech, que colidera a iniciativa AI4Science do instituto com Anima Anandkumar, professor Bren de Computação e Ciências Matemáticas, concorda que os cientistas da computação devem refletir sobre a ética de seu trabalho em IA, mas acrescenta que, na maioria das vezes, trabalham em protótipos em estágio inicial que precisam ser refinados e transformados em soluções prontas para produção. "Normalmente, projetamos ferramentas e, em seguida, fazemos parcerias com a indústria para implementá-las", diz Yue, cuja pesquisa atual inclui esforços para aprimorar a capacidade de tomada de decisão de sistemas de navegação por IA em carros autônomos. "Para ser honesto, estamos trabalhando em problemas tão complexos que, em mais de 90% das vezes, eles nem funcionam. Quando vemos algo começando a funcionar, é quando pensamos nas implicações mais práticas, que realmente exigem uma coalizão de pessoas para discutir. Então, se acharmos que pode haver uma solução tecnológica para tornar o viés menos problemático, isso é algo que podemos estudar no Caltech."
IA para combater IA?
Grande parte da desinformação e da informação falsa encontrada online é produzida por programas de IA generativa, que podem ser empregados por pessoas mal-intencionadas para disseminar fotos e vídeos falsos e hiper-realistas. Quando combinadas com algoritmos de IA que rastreiam nosso histórico online e fornecem feeds personalizados de mídia social e anúncios direcionados, essas tecnologias criam uma tempestade perfeita para uma potencial manipulação em massa, afirma Michael Alvarez, Professor de Ciências Sociais Políticas e Computacionais da Fundação Flintridge do Caltech.
“Há uma vasta quantidade de informações disponíveis sobre nós, e modelos de IA podem ser empregados para explorar esses dados e prever e até mesmo persuadir nosso comportamento”, afirma. Isso poderia assumir a forma de interferência facilitada por IA em eleições políticas, por exemplo — um assunto no qual Alvarez é bem versado como diretor do Projeto de Integridade Eleitoral da Caltech, que examina a administração eleitoral e a confiança do eleitor usando métodos de pesquisa em ciências sociais.
A pesquisa de Alvarez vira o jogo, utilizando a IA como ferramenta para combater a desinformação. Em um projeto para entender rumores e mitos relacionados à eleição presidencial dos EUA de 2024, pesquisadores usaram IA generativa para ajudar as pessoas a "desenvolver o músculo mental", como diz Alvarez, para identificar falsidades online com uma técnica chamada "prebunking". Os participantes do estudo viram uma amostra resumida e menos antagônica de um boato eleitoral com um aviso explicando por que o conteúdo é enganoso. "É como vacinar alguém contra um vírus", diz Alvarez. A equipe de pesquisa usou IA generativa para desenvolver seus avisos de pré-bunking, que, segundo Alvarez, podem permitir respostas em tempo real a rumores online em rápida evolução, tornando a IA uma ferramenta poderosa para prevenir a disseminação de conspirações. Alvarez também atua como codiretor do Linde Center for Science, Society, and Policy (LCSSP) do Caltech, juntamente com o professor de filosofia Frederick Eberhardt. Uma das funções do centro é conectar esforços em todo o Instituto que visam compreender e orientar a implementação responsável da IA. O LCSSP também fornece conhecimento científico para subsidiar políticas sobre questões sociais urgentes, como as implicações da biotecnologia, bem como as mudanças climáticas e a sustentabilidade.
“Um dos nossos objetivos é tentar entender, da melhor forma possível, como todas essas novas tecnologias de inteligência artificial estão impulsionando essa ampla área de mudanças sociais, políticas e econômicas”, afirma Alvarez. O LCSSP organiza fóruns que reúnem pesquisadores, partes interessadas em políticas públicas e profissionais da indústria para discutir tópicos em IA. No início de 2023, ano de sua fundação, o centro organizou uma mesa redonda com especialistas para discutir as implicações sociais da IA generativa. No ano passado, realizou um workshop explorando as repercussões políticas e econômicas da IA.
Nesse último workshop, a pesquisadora de pós-doutorado Beatrice Magistro, membro do grupo de pesquisa de Alvarez, apresentou um estudo do LCSSP em colaboração com pesquisadores da Universidade da Colúmbia Britânica, da Universidade de Nova York e da Universidade Cornell que examinou como eleitores americanos e canadenses responderam às mudanças econômicas causadas pela IA generativa e pela terceirização. O estudo descobriu que, embora a automação e a globalização resultem em compensações econômicas multivalentes, como preços mais baixos para os consumidores e perdas de empregos, os entrevistados da pesquisa variaram em seu apoio com base em sua filiação política. Por exemplo, os democratas americanos viam a globalização e a IA de forma mais favorável do que os republicanos americanos, e ambos os partidos reagiram mais negativamente à globalização do que à automação. Os pesquisadores também descobriram que a IA ainda não foi politizada da mesma forma que a globalização e que os eleitores se importam mais com mudanças de preços do que com mudanças de emprego. "Parece que os políticos podem escolher como enquadrar a IA", diz Magistro.
“Estamos neste ponto de inflexão”, acrescenta Alvarez. “Se as atitudes se polarizarem em torno de linhas partidárias, será muito, muito difícil para os formuladores de políticas lidarem efetivamente com a IA.” Eberhardt afirma que o LCSSP visa construir uma ponte entre os pesquisadores do Caltech e os formuladores de políticas “que garanta uma integração mais segura dessas duas comunidades”.
É esse tipo de conexão, acrescenta ele, que levará à pesquisa em IA no Caltech, que tanto serve quanto protege o público. "Nossos pesquisadores trabalham na vanguarda da ciência, e muitos de seus resultados terão um impacto enorme", diz Eberhardt. "Se você é uma instituição que trabalha na vanguarda, precisa se perguntar sobre as consequências que advirão de sua pesquisa e se envolver em moldá-las. E se você quer uma boa política e regulamentação científica, precisa dos melhores cientistas presentes. É isso que estamos fazendo com o LCSSP."
IA generativa e a sala de aula
O lançamento do ChatGPT em 2022 levou o mundo do ensino superior, incluindo a comunidade do Caltech, a lidar com suas implicações no ambiente acadêmico. Eberhardt juntou-se a muitos outros na busca pela melhor abordagem à situação e começou com um conjunto de perguntas importantes: Como lidaremos com os modelos de linguagem de grande porte (LLMs) e a educação? Que tipo de impacto eles terão na pesquisa? Como lidaremos com a escrita e a codificação que os alunos fazem para suas aulas? Como a propriedade intelectual será afetada?
“Um ponto positivo desse alerta é que ele realmente nos força a pensar explicitamente sobre os métodos que estamos usando e por que os consideramos importantes”, afirma Tracy Dennison, Professora Edie e Lew Wasserman de História das Ciências Sociais e Presidente da Cátedra Ronald e Maxine Linde de Liderança da Divisão de Humanidades e Ciências Sociais. Dennison afirma que está aproveitando o surgimento dos LLMs como uma oportunidade para reenfatizar o valor da escrita e das habilidades de pensamento crítico para os alunos, bem como a ética em ciência e tecnologia.
“Sou um russista e frequentemente levanto com os alunos a questão do desenvolvimento de tecnologias de IA que permitem que regimes autocráticos rastreiem e persigam dissidentes políticos”, diz Dennison. “Eu ressalto a importância de reconhecer o lado obscuro desse avanço e os encorajo a serem claros sobre as implicações mais amplas daquilo em que desejam trabalhar. É aceitável argumentar que os aspectos positivos superam os negativos. Mas, assim como aconteceu com a tecnologia nuclear no século XX, há debates importantes em torno dessas questões. Pode ser uma conversa desconfortável, mas é necessária.”
Eberhardt ministra um curso dedicado a Ética e IA para alunos de graduação (Hum/PI 45), que aborda tópicos como liberdade de expressão e desinformação, justiça algorítmica, ética de dados e privacidade e vigilância. As discussões em sala de aula exploram dilemas complexos do mundo real — como definir justiça matematicamente para implementar IA ética, navegar pelas complexas políticas da moderação de discurso online e explorar os limites cada vez mais tênues da privacidade na era digital.
Perona incorporou palestras sobre IA responsável em seus cursos técnicos de aprendizado de máquina e afirma esperar que os graduados do Caltech influenciem a trajetória do desenvolvimento ético da IA. "Tento conscientizar meus mentorados de que seu trabalho é importante e tem repercussões, apresento-lhes relatos de coisas que podem dar errado e os encorajo a se envolverem com a sociedade em torno de suas pesquisas", diz Perona. "Precisamos criar uma geração de cientistas que saiam do Caltech com uma compreensão profunda das questões e que levem esse conhecimento consigo para suas carreiras como líderes e tomadores de decisão influentes."
Os custos ocultos da IA
O impacto social da IA vai além do fluxo e da troca de informações. Um conjunto emergente de pesquisas concentra-se nas ramificações materiais da IA, incluindo as grandes quantidades de energia que ela consome, o carbono subsequentemente liberado na atmosfera e a água necessária para operar seus enormes data centers.
Um artigo intitulado “The Unpaid Toll: Quantifying the Public Health Impact of AI” (O pedágio não pago: quantificando o impacto da IA na saúde pública), publicado no servidor de pré-impressão arXiv em dezembro de 2024 por cientistas do Caltech e da UC Riverside, examina o impacto na saúde pública associado ao consequente aumento da poluição do ar causada por data centers de IA. Espera-se que a poluição do ar resulte em até 1.300 mortes prematuras por ano até 2030 somente nos Estados Unidos, enquanto os custos totais de saúde pública decorrentes desses data centers devem chegar a US$ 20 bilhões por ano no mesmo período. Os autores recomendam a adoção de padrões e métodos que exijam que as empresas de tecnologia relatem a poluição do ar causada por seu consumo de energia e geradores de reserva, e que elas compensem adequadamente as comunidades mais afetadas pela poluição do ar pelos problemas de saúde causados pela produção de eletricidade dos data centers.
“Quando falamos sobre os custos da IA, tem havido muito foco em medições de fatores como carbono e uso de água. E, embora esses custos sejam realmente importantes, não são eles que impactarão as comunidades locais onde os data centers estão sendo construídos”, afirma Adam Wierman, Professor Carl F. Braun de Ciências da Computação e Matemática e diretor de Ciência da Informação e Tecnologia da Caltech, autor correspondente do artigo. “A saúde é uma forma de focar no impacto que esses data centers estão tendo em suas comunidades locais e compreender, quantificar e gerenciar esses impactos, que são significativos.”
Wierman reconhece que a IA continuará a desempenhar um papel significativo em todas as nossas vidas, oferecendo benefícios claros com potencial para aprimorar os sistemas sociais. "Ao mesmo tempo", afirma, "precisamos garantir que nossa casa esteja em ordem e que os impactos negativos da IA sejam reconhecidos, quantificados, minimizados e compartilhados de forma equitativa".
Embora os debates éticos, os cenários regulatórios e as realidades sociais em constante mudança da IA possam ser complexos, Perona afirma que os estudantes e cientistas do Caltech estão bem equipados para lidar com eles juntos, ao mesmo tempo em que continuam a abordar as questões científicas mais complexas. "Há questões nas quais a indústria da IA não se interessa porque não há mercado", afirma. "Podemos trabalhar nelas aqui no Caltech. Aliás, este é provavelmente o melhor lugar do mundo para isso."